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摘要 : 毛竹 是 我 国 重 要 的 经 济 竹 种 ,在 长 期 栽培 适应 过 程 中 产生 了 丰富 的 变异 。 为 揭示 毛竹 
竹 秆 变异 变型 的 全 基因 组 突变 类 型 ， 以 黄 皮 毛 竹 、 金 丝 毛竹 、 绿 皮 花 毛竹 和 花 毛 竹 4 个 毛竹 
变型 为 实验 材料 ， 采 用 高 通 量 重 测序 技术 获得 全 基因 组 序列 ， 进 行 单 核 苔 多 态 性 (SNP) 、 

小 片段 插入 缺失 (InDel〉 和 结构 变异 (SV) 检测 和 注释 ， 并 将 变异 基因 进行 功能 注释 。 结 
果 表 明 : 花 毛竹 基因 组 检测 得 到 的 基因 变异 数 最 多 ， 为 12 555 个 ; 金 丝 毛 竹 样品 变异 位 点 
数 最 少 ， 为 11 923 个 ; 4 个 样品 都 有 7 000 多 个 变异 基因 得 到 功能 注释 。GO 注释 分 类 包括 
细胞 组 件 、 分 子 功 能 和 生物 过 程 三 个 基因 功能 分 类 体系 的 56 个 功能 组 。 在 细胞 组 分 方面 ， 
叶绿素 合成 相关 基因 有 2 431 个 ;在 生物 过 程 方面 ， 参 与 类 胡萝卜 素 合成 过 程 的 基因 有 75 
^, 参与 花 青 素 合成 过 程 中 的 调控 以 及 紫外 光 下 组 织 中 花 青 素 积累 的 相关 基因 有 80 个 。COG 
分 类 表明 参与 复制 、 重 组 和 修复 的 基因 数 为 369 个 , 信号 转 导 机 制 的 基因 数 为 291 个 ， 转 录 
的 相关 基因 222 个 。 通 过 KEGG 数据 库 系 统 地 分 析 变 异 基 因 参 与 的 黄酮 类 、 类 胡 葛 小 素 等 物 
质 代谢 合成 途径 。 深入 研究 这 些 差异 基因 的 调控 途径 ， 从 DNA 水 平 上 解释 竹 秆 的 变异 机 制 ， 
可 以 为 深入 研究 毛竹 种 内 丰富 的 多 态 性 和 遗传 变异 提供 数据 文 持 , 阐 析 不 同 变异 类 型 的 基因 
家 族 、 功 能 基因 等 遗传 基础 。 
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Genomic sequence analysis of four culm variants of Moso 


bamboo (Phyllostachys edulis) on culm 
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Abstract: As an important and economic bamboo species in China, Moso bamboo has performed 
lots of variations with long-term cultivation conditions. For an overall understanding of the whole 
genome of four representative culm variations, Phyllostachys edulis f. holochrysa, P. edulis f. 
gracilis, P. edulis f. nabeshimana and P. edulis f. huamozhu, re-sequencing was used for 
high-throughput sequencing to detect its variations by molecular data. The single nucleotide 
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polymorphism (SNP), insertion-deletion (InDel) and structure variation (SV) were detected and 
annotated, and the mutant genes were compared with the functional databases. The results 
were as follows: Phyllostachys edulis f. gracilis had the lowest number of mutation sites, that was 
11 923, and Phyllostachys edulis f. huamozhu had the highest number 12 555, of which more 
than 7 000 mutant genes were annotated. GO annotation classification included 56 functional 
groups of three functional classification systems: cellular component, molecular function and 
biological processes. In terms of cell components, there were 2 431 genes related to chlorophyll 
synthesis. In terms of biological processes, there were 75 genes involved in the synthesis of 
carotenoids and 80 ones involved in the regulation of anthocyanin synthesis and anthocyanin 
accumulation in tissues under ultraviolet light. COG classification showed that 369 genes involved 
in replication, recombination and repair, 291 ones in signal transduction mechanism, and 222 
ones in transcription. The metabolic pathways of flavonoids, carotenoids and other substances 
involved in the mutant genes were analyzed by KEGG database. In-depth study of the regulatory 
pathways and interpretation of the variation mechanism on culm from the DNA level, can provide 
a data basis for further exploration of the rich polymorphism and genetic variation of Moso 
bamboo, and elucidate the genetic basis of gene family and functional genes of different 
variation types. 

Key words: Moso bamboo (Phyllostachys edulis), variant, whole genome re-sequencing, gene 
annotation 


毛竹 (Phyllostachys edulis) ERHI KARRA OGLAS, 2002) ， 分 布 范 围 广 
阔 ， 现 有 毛竹 变型 20 多 种 (马力 训 等 ，2014) 。 毛 竹 变型 在 形态 上 表现 出 丰富 的 多 态 性 ， 尤 

是 秆 色 性 状 方面 差异 表现 显著 ， 例 如 花 毛 竹 秆 为 黄色 ， 有 宽 罕 不 等 的 绿色 纵 条 纹 ， 而 绿 皮 
花 毛 竹 秆 为 绿色 , 但 节 间 有 淡 黄 色 细 纵 条 纹 。 和 村 色 的 变异 大 大 丰富 了 园林 观赏 种 类 ,提高 了 
园林 观赏 价值 。 毛 竹 竹 秆 性 状 的 遗传 变异 是 遗传 育种 工作 关注 的 重点 。 
目前 , 高 通 量 测序 技术 可 以 分 析 一 个 物种 的 基因 组 的 全 貌 , 己 经 在 谷子 (Bai et al., 2013; 
要 小 平等 ，2019)、 水 稳 (Takagi et al., 2013)、 大 豆 (Qi etal., 2014; Zhou et al., 2015; 3K EX, 
AE, 2016) WIZ GKL FÆ, 2017). EET CASE BIA, 20200 . 3E SZ. (Jeremy etal., 2010) 
和 番茄 (Lin et al., 2014) 等 植物 上 得 到 了 广泛 应 用 。 

近年 来 ， 随 着 分 子 生 物 学 和 组 学 技术 的 发 展 ， 毛 竹 全 基因 组 序列 获得 公布 (Peng etal., 
2013), 一 些 与 毛竹 性 状 相关 的 基因 家 族 , 如 AP2/ERF (Wu et al., 2015)、SAUR ( Bai et al., 2016)、 
AQP (Sun et al., 2016). SBP-like (Pan et al., 2016). HD-Zip (Chen et al., 2017). Hsp (Xie et al., 
2019). CO.Like (Liu et al., 2016) 等 已 进行 鉴定 和 功能 验证 ， 但 是 在 基因 组 层面 上 的 研究 较 少 ， 
特别 是 毛竹 变型 和 色相 关 的 研究 薄弱 , 仅 对 黄 槽 毛竹 和 黄 皮 花 毛竹 两 个 毛竹 变型 基因 组 序列 
变异 进行 初步 探索 ( 牟 少 华 等 ，2020)， 这 在 一 定 程度 上 限制 了 毛竹 遗传 育种 的 应 用 发 展 。 
从 基因 水 平 上 揭示 毛竹 的 变异 程度 , 是 分 析 毛 竹 变 型 形态 差异 产生 原因 的 重要 手段 之 一 。 因 
此 ， 开展 毛竹 变型 基因 组 研究 ， 揭 示 毛 竹 变 型 全 基因 组 突变 类 型 ,探究 黄酮 类 和 硝酸 还 原本 
等 代谢 途径 相关 基因 ， 对 解析 毛竹 丰富 的 遗传 多 样 性 以 及 性 状 相关 的 遗传 变异 具有 重要 意 
义 。 
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本 研究 以 黄 皮 毛 竹 等 4 个 有 代表 性 的 竹 秆 变异 毛竹 变型 为 研究 对 象 ， 毛 竹 全 基因 组 作 
为 参考 基因 组 ， 采 用 高 通 量 测序 技术 ， 构 建 全 基因 组 数据 库 ， 并 利用 生物 信息 学 的 方法 对 获 
得 的 核酸 序列 组 装 ， 检 测 并 注释 其 单 核 背 酸 多 态 性 (SNP)、 结 构 变异 (SV) 和 小 片段 插入 缺失 
(ndel) 等 ， 注 释 变异 基因 功能 ， 积 累 基因 组 序列 数据 ， 以 便 为 从 全 基因 组 水 平 上 深入 地 分 析 
毛竹 的 遗传 变异 ， 为 遗传 育种 提供 遗传 基础 。 


1 材料 与 方法 
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新 鲜 幼 嫩 的 叶片 ， 
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心安 徽 太 了 


试验 中 心 种 质 资源 围 。 
经 液 氮 饮 中 速冻 后 ， 放 入 -80'C 冰 箱 冻 存 备用 。 
表 1 四 个 毛竹 变型 样品 简 表 


选取 4 个 毛竹 变型 〈 表 1) 适 


Table 1 Brief introduction of four variations of Moso bamboo 


编号 ”变型 拉丁 名 形态 特征 
ID variation Latin name Morphological characteristics 
R01 ” 黄 皮 毛 竹 Phyllostachys edulis f. holochrysa 秆 和 枝 金 黄色 
Culms and branches golden yellow 
R02 ” 金 丝 毛 竹 P. edulis f. gracilis TIRAS, PTEE, HERRAT S ERK 
Shorts height, culm walls thick, basal internodes 
longer 
RO3 EE P. edulis f. nabeshimana 秆 绿色 ， 但 节 间 有 淡 黄 色 细 纵 条 纹 
Culms green, internodes with light yellow strips 
R04 E Phyllostachys edulis f. huamozhu 黄 秆 ， 有 宽 窗 不 等 的 绿色 纵 条 纹 
Culms yellow with green strips 
1.2 方法 


1.2.1 基因 组 测序 


毛竹 变型 叶片 DNA 提取 (Zidani et al., 2005) 后 ， 
富 集 、 文 库 质量 检测 ， 


将 数据 过 滤 后 得 到 高 质量 数据 。 


1.2 


ci ill 


理 后 ， 


.2 比 对 统计 
使 用 bwa 软件 (Li& Durbin, 2009) 将 测 数据 序 比 对 定位 到 已 测序 的 毛竹 基因 组 的 位 置 ， 


使 用 Picard 


上 序 深度 和 基因 组 履 盖 度 等 信息 。 
1.2.3 检测 SNP. InDel 和 SV 


建成 测序 文库 , 在 lllunima 2500 测序 3 


过 打 断 、 损 伤 修复 及 PCR 
FE 台 上 运行 获得 原始 数据 ， 


软件 (Gordon et al., 2012) 去 重复 和 GATK 软件 (Mckenna et al., 2010) 预 处 


体 方法 参照 文献 


1.2. 


运用 SnpEff 


检测 SNP 和 InDel 变异 。 使 用 Bre 


(和 件 少 华 等 ，2020) 。 


4 注释 SNP、InDel 和 SV 
软件 (Cingolani et al., 2012) 注 释 SNP、InDel fll Sv, È 


少 华 等 ，2020) o 
1.2.5 注释 功能 基因 


运用 BLAST 


软件 ， 对 第 


选 得 到 的 功能 


akDancer 软件 (Chen et al., 2009) 检测 SV 变异 ， 具 


体 方法 参照 文献 〈 宇 


可 能 变异 基因 的 基因 


序列 与 


GO (Ashburner et al., 


2000). COG (Tatusov et al., 2000) 和 KEGG (Minoru et al., 2004) 等 三 大 功能 数据 库 , 进行 BLAST 


比 对 ， 得 到 基 


因 注 释 。 


结果 与 分 析 
2.1 与 毛竹 基因 组 比 对 


4 个 竹 种 通过 高 通 量 测 序 得 到 测序 数据 。 
为 82 276 884 bp; 花 毛 竹 样品 


金 丝 毛 竹 样品 (R02) 过 滤 后 的 Clean reads 最 少 ， 
(R04) 的 Clean reads 最 多 ， 为 112 054 728 bp 。 定 位 到 毛竹 参考 


， 说 明 这 些 毛竹 变型 

合 类 型 
毛竹 样 
比率 最 低 ， 为 88.53%。 


转换 比 颠 换 更 
! (homozygosity, Homo) SNP 数 量 的 10 倍 左 
fF 品 (R04) 杂 合 比 率 最 高 


JAJ ， 


容易 发 生 。 杂 合 类 型 (heterozygosity, Het) SNP 数 量 为 纯 


右 ， 杂 合 比 率 为 88.53 %~92.01 96. 


为 92.01%， 说 明 


ERS E BE HIS 


绿 皮 花 毛竹 样 


表 3 四 个 样品 SNP 位 点 统计 表 


Table3 SNP loci statistics in four samples 


编号 SNP 转换 

1D Transition 
RO1 1628 624 1227674 
R02 1601 748 1 207 308 
R03 1534 648 1 161 232 
R04 1691 715 1274 890 

根据 4 个 毛竹 样品 与 参考 

各 数值 为 对 应 的 横 纵 两 样品 之 


Table 4 
编号 ID RO1 
RO1 0 
R02 598 973 
R03 608 671 


样品 (R03) 间 的 SNP 数 最 多 。 


foi Te Bj 杂 合 纯 合 

Transversion Ti/Tv Het Homo 
400 950 3.06 1476 422 152 202 
394 440 3.06 1 444 235 157 513 
373 416 3.10 1358 770 175 878 
416 825 3.05 1556 713 135 002 


基因 组 的 比 对 结果 , 汇 
间 的 SNP Zi. JA 


E 


a4 Vu 


可 以 看 出 ， 


基因 组 的 占 所 有 Clean reads 数 的 百分比 在 99.45 % 以 上 , 双 端 均 定 位 到 毛竹 参考 基因 组 上 并 且 
距离 符合 测序 片段 的 长 度 分 布 的 占 所 有 Clean Reads 数 的 百分比 在 88 % 左 右 , 说 明 参 考 基因 组 
选择 合适 ， 且 相关 实验 过 程 不 存在 污染 ， 测 序 reads 的 比 对 率 会 高 于 70%。 另 外 ， 比 对 率 的 4 
个 毛竹 变型 与 毛竹 参考 基因 组 亲缘 关系 较 近 、 基 因 组 组 装 质量 高 ， 而 且 reads 测 序 质量 高 。4 
个 样品 平均 覆盖 深度 均 在 10X 左 右 〈 表 2) 。 

表 2 四 个 样品 数据 产 出 统计 表 
Table 2 Output statistics among four samples 

编号 过 滤 后 的 定位 比 双 端 定位 比 覆盖 深度 — HE Tiu 覆盖 度 

ID Clean reads Mapped Properly Ave depth Cov Cov ratio 5X Cov ratio 10X 

(26) _mapped(%) _ratio_1X (%) — (96) (%) 

RO1 103 490 495 99.6 88.91 11 97.02 80.74 55.11 
R02 82 276 884 99.45 88.03 9 97.22 78.74 46.89 
R03 83 316 245 99.50 87.92 9 95.40 71.64 44.06 
RO4 112 054 728 99.49 89.21 13 97.25 85.40 64.55 
2.2 SNP 的 检测 与 注释 
2.2.1 SNP 检 测 

KR Ud bir eM d ( 表 3) ， 其 中 ， 花 毛竹 样品 (R04) 的 SNP 数 量 最 

Z, 1691715; 绿 皮 花 毛 竹 样品 (R03) 的 SNP 数 量 最 少 ， 为 1534 648。4 个 样品 中 ， 转 换 类 
(transition, Ti) SNp 数 量 与 颠 换 类 型 (transversion, Tv) SNP 数 量 的 比值 Ti/Tv 为 3.05-3.10 之 


其 中 ， 花 


Ém (R03) S 


杂 合 比率 
Het-ratio 
90.6596 
90.1696 
88.5396 
92.0196 


AF 


E IRI SNP S 


Summary of SNPs detected between four samples 


R02 


0 
616 986 


R03 R04 


品 间 SNP 的 统计 结果 见 表 4， 表 中 
金 丝 毛 竹 (R02) 与 绿 皮 花 毛 竹 


R04 558 357 587 035 604 473 0 


2.2.2 SNP 注 释 

对 4 个 样品 SNP 进 行 注 释 ， 获 得 其 变异 位 点 发 生 的 区 域 或 类 型 〈 如 图 1 所 示 ) 。4 个 毛竹 
变型 发 生 在 CDS 区 域内 的 SNP 数 量 占 比 均 为 2 % 左 右 ， 其 中 ， 同 义 突变 占 比 为 48 % 左 右 ， 非 同 
义 突 变 占 比 为 51 % 左 右 。 非 同 义 突变 率 与 同 义 突变 率 的 比值 大 于 1, 预示 着 有 正身 选择 效应 。 


一 < 下 INTERGENIC ™ 
INTRCN 


DOWNSTREAM 
SPLICE SITE-REGION 


SPLICE SITE DONOR 


编码 区 s CDS:25236(2.03*4) 基因 下 游 区 域 s DOWNSTREAM:52195(4.20%) 同 义 终止 密码 子 突变 “SYNONYMOUS_STOP:10(0.04%) 

EDI n SPLICE SITE DONOR:58(0.0056) 其 他 Other:5940(0.48%) 同 义 编码 突变 /. SYNONYMOUS_CODING:11929(47.27%) 
基因 间 区 INTERGENIC:1066260(85.78%) 基因 内 (无 转录 本 信息 ) INTRAGENIC:12375(1.00%) 起 始 密码 子 丢失 mmm START_LOST:30(0.12%) 

剪 切 受 体 突变 mew SPLICE_SITE_ACCEPTOR:64(0.01%) 内 含 子 mem INTRON:24569(1.98%) 终止 密码 子 获得 mmm SIOP GAINED:222(0.889) 

基因 上 游 区 域 mem UPSTREAM:55608(4.47%) 非 同 义 的 起 始 密码 子 突 变 "99" NON SYNONYMOUS START:5(0.0294) 终止 密码 子 丢失 mm STOP_LOST:33(0.13%) 

剪 切 位 点 区 域 突变 v SPLICE SITE REGION:667(0.05%) 非 同 义 编码 突变 NON SYNONYMOUS CODING:13007(51 54%) 


图 1 黄 皮 毛 竹 (R01) 的 SNP 注 释 图 
Fig.1 SNP annotations pie of Phyllostachys edulis f. holochrysa (RO1) 


2.3 InDel 检 测 与 注释 
2.3.1 InDel 检 测 

对 4 个 毛竹 变型 InDel 进 行 统计 〈 表 5) ， 可 以 发 现 4 个 样品 全 基因 组 范围 检测 出 的 InpDel 
总 数 范围 为 271 648-292 253， 其 中 插入 类 型 的 突变 总 数 略 低 于 缺失 突变 总 数 ; 编码 区 检测 
的 InDel 总 数 为 4 711-4 877， 其 中 ， 插 入 突变 总 数 为 缺失 突变 的 67 % 左 右 。 各 样品 中 ， 全 基因 
组 范围 内 纯 合 突变 数 约 为 杂 合 突变 数 的 2 倍 ， 编 码 区 纯 合 突变 数 略 低 于 杂 合 突变 数 。 
表 5 四 个 样品 InDel 统 计 表 
Table5 | Summary of InDels detected in four samples 
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编 编码 区 CDS EAH Genome 

号 插入 缺失 RE dcm ”总 数 插入 缺失 杂 合 纯 合 总 数 
ID Insertion Deletion Het Homo Total Insertion Deletion Het Homo Total 
RO1 2991 1727 2546 2172 4718 139 538 143 229 94 439 188 328 282 767 
R02 3 007 1729 2568 2168 4736 139 023 142 221 94 810 186 434 281 244 
R03 2 996 1715 2572 2139 4711 134 641 137 007 96 117 175 531 271 648 
R04 3071 1806 2553 2324 4 877 144 687 147 566 92 976 199 277 292 253 


对 4 个 样品 各 区 域 的 InDel 长 度 进行 统计 发 现 ， 编码 区 存在 较 多 的 +1、-1、+ 3、-3 类 型 突 
变 ， 而 基因 组 范围 存在 较 多 的 +1、-1、+ 2、-2 类 型 突变 。 其 中 ， 数 值 代表 InDel 的 长 度 (10 bp 
以 内 ); 大 于 0 为 插入 ; 小 于 0 为 缺失 。 

将 4 个 样品 的 InDel 进行 两 两 比较 ， 统 计 结 果 见 表 6。 表 中 各 数值 为 对 应 的 横 纵 两 样品 
之 间 的 Inpel 数 。 


表 6 毛竹 变型 间 的 InDel 统 计 表 
Table6 Summary of InDels detected between variants of Moso bamboo 
编号 ID RO1 R02 R03 R04 
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RO1 
R02 
R03 
R04 


2.3.2 InDel 注 释 


对 比 毛竹 参考 基因 


为 移 码 突变 等 ， 具 体 注释 结果 如 图 2 所 示 。4 个 毛竹 变型 发 生 在 编码 区 的 InDel 数 
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0 
88 813 0 
83 204 86 660 0 


组 的 基因 、CDS 位 置 等 信息 ， 注 释 各 样品 InDel 位 点 的 发 生 位 置 、 是 否 


左右 。 移 码 突变 的 InDel 有 可 能 会 引起 基因 功能 的 改变 。 


INTERGENIC 


SPLICE_SITE_REGION 
UPSTREAM 
SPLICE SITE DONOR 


量 均 在 1.7% 


FRAME SHIFT 


INTRON CODON INSÉRTION 


e Other 
i DOWNSTREAM 


EXON DELETED 


'ON CHANGE PLUS CODON DELE] 


uc A ami 5 CODON, INSERTION 


STOP LOST CODON DELETION 


密码 子 插入 /— CODON,INSERTION::019(21.639;] 
编码 区 mm CD5:4712(1.67%) 其 他 Other:1643(0.58%) pr - emp $ 
BIERE SPLICE_SITE_ACCEPTOR:77(0.03%) AF INTRON: 10822(3.83%) RS UU - pipes 9.25%) 
基因 间 区 INTERGENIC:225078(79.6025] 基因 内 无 转录 本 信息 ) m INTRAGENIC:4912(1.74*6) 终止 密码 子 获得 mum STOP. GAINED:58(1 os j 
SERIE —— sem sPIICF SITF. DONOR:91(0.0336) 整个 外 显 子 被 删除 ww EXON_DELETED:2(0.04%) de e HANE MUS 4 (6.8896 
基因 上 游 区 域 mw UPSTREAM:18404(6.51*6) 码 突 变 FRAME_SHIFT:2570(54.54%) T ERETI = ee PENNE 
SITAREA o SPLICE SITE REGION.256(0.099) —— 终止 密码 子 丢失 c STOP LOST:23(0.49%) us = E i 
基因 下 游 区 域 RE DOWNSTREAM:16772(5.93%) 
E: yr x 
图 2 黄 皮 毛 竹 (R01) InDel 注 释 图 
Fig.2 InDel annotations pie of Phyllostachys edulis f. holochrysa (RO1) 


2.4 SV 检测 与 注释 
2.4.1 SV 检测 
检测 4 个 样品 与 参考 基因 组 间 的 插入 (INS)、 缺失 (DEL)、 反 转 (INV)、 染色体 内 部 易 位 ( ITX)、 
染色 体 间 易 位 (CTX)， 得 到 的 各 类 型 SV 数量 统计 见 表 7， 其 中 ，4 个 毛竹 变型 都 表现 为 缺失 类 


型 的 SV 数量 最 多 ， 其 


RO4 


Total 


83 901 
77 275 
80 479 


89 754 


2.4.2 SV 注释 


次 为 染色 体内 易 位 类 型 。 


表 7 四 个 样品 SV 数量 统计 


Table7 Summary of SVs detected in four samples 


插入 


Insertion 


17 212 
15 183 
18 020 


19 541 


缺失 


Deletio 


反 转 染色 体内 易 位 染色 体 间 易 位 其 它 
Inversion Internal chromosomal Translocation Other 
translocation between 
chromosomes 

2346 4 853 26 262 150 
1499 4 735 22 789 123 

2 000 4 676 23 947 130 

1 166 5 133 29 142 159 


作 期 刊 


检测 4 个 样品 SV 发 生 位 置信 


自 


PARE 


的 结构 变异 注释 进 


行 注释 , 结果 


注释 到 的 变异 基因 数目 以 基 


并 对 缺失 CDEL) 、 插 入 (NS) 、 反 转 (INV) 3 
( 表 8) 表明 , 4 个 毛竹 变型 在 各 


区 域 分 布 的 SV 总 体 情况 一 致 ， 


因 间 区 的 缺失 类 型 最 多 ， 其 次 为 基 


因 间 区 的 插入 类 型 。 


表 8 四 个 毛竹 变型 结构 变异 注释 结果 统计 表 
Table8 SV annotations in four variants of Moso bamboo 
编号 外 显 子 区 Exon 内 含 子 区 Intron 基因 间 区 Intergenic 
ID 缺失 插入 反 转 缺失 插入 反 转 缺失 插入 反 转 
Deletion Insertio Inversion Deletion Insertio Inversion Deletion Insertion Inversion 
n n 
R01 2 258 837 237 961 389 66 29 859 15 986 2 043 
R02 2129 707 176 990 333 42 29 827 14 143 1281 
R03 2114 953 205 942 427 44 28 650 16 640 1751 
R04 2 303 968 193 984 437 30 31 326 18 136 943 
2.5 变异 基因 功能 注释 与 分 析 
2.5.1 变 异 基因 挖 气 
分 别 统计 4 个 样品 的 非 同 义 突变 的 SNP 以 及 CDS 区 发 生 InDel 和 SV 的 基因 《〈 表 9) ， 寻 找 可 


能 存在 功能 变异 的 基因 


。 在 4 个 毛竹 样品 中 ， 花 毛竹 〈R04) 基 


因 组 存在 12 555 个 基因 变异 ， 


其 中 ， 非 同 义 突变 SNP 基 因为 5 563 个 ，Indel 基 因为 4 006 个 ，SV 突 变 的 基因 为 2 986 个 ， 差 异 
基因 总 数 和 SV 突 变 基因 数 最 多 。 在 3 类 变异 基因 中 ， 非 同 义 突变 SNP 基 因数 最 多 ，Indel 基 因 
数量 次 之 ，SV 突 变 的 基因 最 少 。 
表 9 四 个 毛竹 变型 的 变异 基因 统计 表 
Table9 Summary of gene variations in four variants 

编号 非 同 义 突变 SNP 基 因 插入 缺失 基因 结构 变异 基因 总 数 

ID Genes with Non-synonymous SNP Genes with InDel Genes with SV Total 

RO1 5405 3 905 2903 12 213 

RO2 5 344 3 920 2659 11 923 

R03 5313 3 899 2870 12 082 

R04 5 563 4 006 2986 12 555 
2.5.2 变 异 基因 的 功能 注释 

黄 皮 毛 竹 、 金 丝 毛竹 、 绿 皮 花 毛竹 和 花 毛 竹 注 释 到 数据 库 中 的 变异 基因 数 分 别 为 : 7 575、 

7538、7 476 和 7 728。 变 异 基因 GO 分 类 统计 结果 图 〈 图 3 所 示 ) 中 ， 显 示 出 在 3 大 基因 功能 


分 类 体系 (分 子 功能 、 细胞 组 件 和 生物 过 程 ) 的 56 个 分 类 内 容 中 所 对 应 
绿 素 合成 相关 的 基因 
了 75 个 , 与 花 青 素 合成 调控 以 及 紫外 光 下 组 织 
因 功 能 中 的 变异 基 


HB, 2 


胞 组 分 分 类 中 ， 与 中 
萝卜 素 合成 过 程 的 基因 
80 个 。4 个 毛竹 变 
与 类 胡萝卜 素 合成 相关 的 基因 ， 而 绿 皮 花 毛 竹 有 17 个 相关 基 


型 


在 相应 的 基 


基因 数量 和 种 类 的 差异 ， 可 能 引起 相应 的 功能 变化 。 深 入 而 
合成 相关 基因 以 及 这 些 差 异 基因 的 调控 途径 ， 


有 2 431 个 ; 


因数 目 有 差异 ， 例 如 ， 花 毛竹 
因 ， 黄 皮毛 竹 有 18 个 相关 基因 ， 


的 基因 数 和 基因 占 比 。 
生物 过 程 分 类 中 ， 参 与 类 胡 


花 青 素 积累 的 相关 基 
21 个 


究 叶 绿 素 、 类 胡萝卜 素 和 花 青 素 


有 利于 从 DNA 水 平 上 解释 秆 色 的 变异 。 
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横 坐 标 为 GO 的 分 类 内 容 ， 纵 坐标 的 左边 为 基因 数 占 比 ， 右 边 为 基因 数 。 1. 代谢 过 程 ，2. 细胞 过 程 ，3. 对 刺激 的 反应 ; 4. 生 
物 调节 ; 5. 定位 ; 6. 定位 确立 ; 7. 细胞 组 成 或 生物 形成 ; 8. 分 化 过 入. 9. 多 细胞 生物 过 程 ，10. 繁殖 ; 11. 生殖 过 程 ，12. 
d. 13. 多 组 织 过 程 ; 14. 生长 ;15. 免疫 系统 过 程 ; 16. 死亡 ; 17. 细胞 增殖 ; 18. 生物 粘 附 ; 19. 节律 过 程 ，20. 病毒 繁殖 ; 
21. 色素 沉着 ; 22. 运动 ; 23. 细胞 死亡 ; 24. WAH: 25. 细胞 部 分 ，26. 细胞 ，27. 细胞 器 ;28. 膜 ，29. 细胞 器 部 分 ，30. 膜 
部 分 ; 31. 高 分 子 复 合 物 ，32. 细胞 外 区 域 ，33. 34. 细胞 连接 ; 35. 细胞 外 基质 ，36. 类 核 ，37. 病毒 粒子 ，38. 细胞 
外 基质 部 分 ，39. 细胞 外 区 部 分 ，40. 病毒 粒子 部 分 ，41. 绑 定 ，42. 催化 活性 ;43. 运输 活动 ，44. 核酸 结合 转录 因子 活性 ，45. 
结构 分 子 活 性 ;46. 电子 载体 活性 ;47. 酶 调节 活性 ;48. 活动 分 子 传感器 ; 49. 抗 氧化 活性 ;50. 受 体 活 性 ; S1. 蛋白 结合 转录 
因子 活性 ，$2. 营养 库 活性 ，53. 翻译 调节 活性 ，54. 金属 伴侣 活性 ，5$S. 和 蛋白质 标 记 ; 56. 通道 调节 活性 。 


Abscissa is GO classification, the left side of the ordinate is percentage of gene, and the right side is number of gene. 1. Metabolic process; 
2. Celluar process; 3. Response to stimulus; 4. Biological regulation; 5. Localization; 6. Establishment of localization; 7. Cellular 
component organization or biogenesis; 8. Developmental process; 9. Multicellular organismal process; 10. Reproduction; 11. 
Reproductive process; 12. Signaling; 13. Multi-organism process; 14. Growth; 15. Immune system process; 16. Death; 17. Cell 
proliferation; 18. Biological adhesion; 19. Rhythmic process; 20. Viral reproduction; 21. Pigmentation; 22. Locomotion; 23. Cell killing; 
24. Carbon utilization; 25. Cell part; 26. Cell; 27. Organelle; 28. Membrane; 29. Organelle part; 30. Membrane part; 31. Macromolecular 
complex; 32. Extracellular region; 33. Membrane-enclosed lumen; 34. Cell junction; 35. Extracellular matrix; 36. Nucleoid; 37. Virion; 
38. Extracellular matrix part; 39. Extracellular region part; 40. Virion part; 41. Binding; 42. Catalytic activity; 43. Transporter activity; 44. 
Nucleic acid binding transcription factor activity; 45. Structural molecule activity; 46. Electron carrier activity; 47. Enzyme regulator 
activity; 48. Molecular transducer activity; 49. Antioxidant activity; 50. Receptor activity; 51. Protein binding transcription factor activity; 
52. Nutrient reservoir activity; 53. Translation regulator activity; 54. Metallochaperone activity; 55. protein tag; 56. Channel regulator 
activity. 


Ds 


3 黄 皮 毛 竹 (R01) 变 异 基因 的 GO 注释 分 类 图 


Fig.3 Classification of Phyllostachys edulis f. holochrysa (RO1) gene variations compared with GO database by 
blast 


变异 基因 COG 注 释 分 类 图 (图 4) 直观 显示 出 COG 功 能 分 类 条 目 上 分 别 对 应 的 频率 ， 
中 ， 涉 及 到 功能 注释 、 转 录 、 复 制 重组 修复 和 信号 转 导 机 制 的 对 应 数值 高 。 Phat! 
基因 1 630 个 ， 参 与 复制 、 重 组 和 修复 的 基因 数 为 369 个 ， 信 和 号 转 导 机 制 的 基因 数 为 291 个 ， 
转录 的 相关 基因 222 个 。 
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^ RNA 加 工 和 修饰 

B: 染色 质 结构 和 力学 

C: 能 源 生产 和 转换 

D: 细胞 周期 控制 ， 细 胞 分 裂 ， 染 色 体 分 烈 
E: 氨基 酸 转运 与 代谢 


碳水 化 合 物 的 运输 和 代谢 
脂 质 转运 和 代谢 


翻译 ， 核 糖 体 结构 与 生物 发 生 


F: 核 苷 酸 转运 和 代谢 
1 转录 
Ü 


复制 ， 重 组 和 修复 


G 
H: 辅酶 转运 和 代谢 
K 

细胞 壁 / 膜 / 包 膜 生物 发 生 
N 


翻译 后 修饰 ， 蛋 白质 周转 ， 伴 侣 蛋白 
无 机 离子 转运 与 代谢 


仅 一 般 功 能 预测 


: 细胞 骨架 


图 4 黄 皮 毛 竹 (RO1) 变 异 基因 的 COG 注 释 分 类 图 


Fig.4 Classification of Phyllostachys edulis f. holochrysa (RO1) gene variations compared with COG database 
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KEGG 数 据 库 系统 地 分 析 4 个 毛竹 变型 的 基因 产物 在 生物 学 过 程 中 的 功能 。 以 黄 皮 毛 竹 
(R01) 的 缚 氨 酸 、 亮 氨 酸 和 有 异 亮 氮 酸 生物 合成 通路 为 例 〈 图 5) ， 注 释 到 57 个 基因 参与 该 
通路 ， 其 中 23 个 变异 基因 。 整 个 通路 涉及 不 同 的 酶 连接 一 系列 生化 反应 形成 ， 其 中 , 框 内 的 
数字 代表 enzyme 的 号 码 ， 红 色 的 框 代表 通路 相关 变异 基因 。 
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图 5 黄 皮 毛 竹 (R01) 变 异 基因 的 KEGG 通 路 代谢 图 
Fig.5 Pathway of Phyllostachys edulis f. holochrysa gene variations compared with KEGG database by blast 


十 二 、 十 四 和 十 六 元 
环 大 环 内 酯 类 生物 合成 


11 型 聚 珊 骨 架 生物 合成 
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3 讨论 与 结论 


3.1 讨论 
全 基因 组 重 测序 可 以 在 已 知 植物 的 基因 组 序列 基础 上 , 对 其 不 同 品种 的 基因 组 序列 进行 
测序 ， 从 而 找 出 个 体 与 该 物种 间 的 差异 性 (Ley et al., 2008) 。 随 着 毛竹 全 基因 组 序列 的 公 
开发 表 (Peng et al., 2013) ， 研 究 毛 竹 不 同 变种 或 变型 基因 组 序列 差异 成 为 可 能 。 全 基因 组 重 
测序 可 以 检测 个 体 的 全 部 基因 组 序列 ， 扫 描 出 一 些 与 该 个 体 生长 性 状 密切 相关 的 变异 位 点 
( 宋 志 芳 等 , 2017) 。 毛 竹 的 地 下 茎 中 单 轴 散 生 ， 其 不 同 变异 类 型 也 都 是 散 生 竹 。 在 毛竹 
身 的 遗传 基因 漂移 , 以 及 长 期 的 栽培 措施 和 自然 环境 变迁 等 因素 的 影响 下 , 毛竹 种 内 产生 了 
很 多 遗传 变异 ， 产 生 各 种 独特 的 结构 形态 ， 表 现 出 丰富 的 园林 观赏 性 状 。 其 中 ， 黄 皮毛 竹 、 
花 毛 竹 、 绿 皮 花 毛竹 在 竹 秆 颜色 方面 表现 出 不 同 程度 的 变异 , 使 其 具有 更 高 的 园林 观赏 价值 。 
对 4 个 毛竹 变异 类 型 全 基因 组 重 测序 ， 初 步 统计 分 析 了 其 基因 组 数据 ， 与 毛竹 参考 基因 
组 进行 比 对 ， 检 测 其 SNP、InDel 和 sV。SNP 类 型 的 变异 分 为 转换 和 匡 换 两 种 ，4 个 毛竹 样品 的 
转换 / 颠 换 CTT) 的 比例 都 在 3 左右 ， 说 明 转 换 类 型 比 颠 换 类 型 更 容易 发 生 。SNP 杂 合 比 例 
pu 为 90% 左 右 ， 说 明 样 品 有 很 高 的 杂 合 度 ， 即 同 源 染 色 体 上 SNP 位 点 含 不 同类 型 的 碱 基 比例 高 。 
À InDel 位 点 数 同 样 能 反映 不 同样 品 与 毛竹 基因 组 之 间 的 差异 ， 并 且 编 码 区 的 InDel 会 引起 移 码 
突变 ， 影 响 基因 功能 。SV 中 缺失 、 插 入 、 反 转 、 易 位 4 种 类 型 的 数量 ， 反 映 出 基因 组 水 平 上 
大 片段 的 缺失 、 插 入 、 倒 置 、 易 位 等 序列 差异 。 通 过 生物 信息 学 分 析 ， 比 较 不 同 秆 色 的 变异 
类 型 在 全 基因 组 水 平 上 的 结构 差异 ， 并 进行 差异 注释 ， 从 而 为 毛竹 选 育 提供 遗传 基础 ， 也 为 
重要 基因 的 功能 研究 提供 有 利 依 据 。 
颜色 变异 是 植物 中 较 常 见 的 表 型 变异 ， 其 中 , 水稻、 拟 南 芥 、 菊 花 等 多 种 植物 中 均 有 叶 
色 变 异 的 报道 。 据 不 完全 统计 ， 水 稻 叶绿体 含量 基因 超过 140 个 〈 赵 绍 路 等 ，2018) 。 竹 子 
中 的 色素 分 为 3 大 类 : 叶绿素 、 花 青 素 和 类 胡萝卜 素 。 通 过 功能 数据 库 比 对 ， 对 4 个 毛竹 变型 
的 变异 基因 ， 进 行 基因 功能 注释 和 分 析 。GoO 数 据 库 注 释 聚 类 反映 了 毛竹 变型 在 不 同 功能 组 
分 类 中 基因 数目 和 基因 产物 的 属性 ， 其中, 与 秆 色 变 异 有 关 的 叶绿素 、 类 胡萝卜 素 和 人 花 青 素 
等 色素 合成 相关 基因 作为 重点 关注 对 象 进行 分 析 。COG 数 据 库 注释 了 基因 产物 的 直系 同 源 分 
类 ， 不 同 分 类 对 应 的 基因 数目 差别 很 大 ， 反 映 了 不 同 条 件 下 的 生理 或 者 代谢 偏好 等 。KEGG 
数据 库 将 基因 和 多 种 酶 形成 通路 ， 有 氨基 酸 生物 合成 、 类 胡萝卜 素 生物 合成 、 类 黄酮 生物 合 
成 、 太 类 化 合 物 的 生物 合成 、 植物 激 素 信号 转 导 、 参 与 中 啉 和 叶绿素 代谢 等 显著 富 集 。 其 中 ， 
叶绿体 、 类 胡 葛 卜 素 和 花 青 素 等 色素 合成 相关 通路 ， 是 与 秆 颜色 相关 的 主要 代谢 通路 。 
结合 不 同 秆 色 毛 竹 变 型 的 生物 学 和 生理 学 特性 ， 研 究 全 基因 组 序列 色素 合成 相关 基因 ， 
j 助 于 从 基因 水 平 上 解析 其 秆 色 变 异 原因 。 有 研究 表明 ， 毛 竹 不 同 变异 类 型 在 叶绿素 含量 、 
B 胡萝卜 素 含 量 等 生理 指标 中 存在 着 显著 性 差异 (陈建华 等 ， 2011) ， 株 型 较 大 的 花 毛 竹 生 
理 指标 值 比 较 小 型 的 龟甲 竹 、 绿 槽 毛竹 大 〈 晏 育 存 ，2011) 。 毛 竹 变型 ISSR 和 AFLP 分 子 标 
记分 析 表 明 ， 变 型 间 的 遗传 变异 程度 较 小 〈 阮 晓 赛 ，2008) 。 在 参考 黄 槽 毛竹 和 黄 皮 花 毛竹 
两 个 秆 色 变 异 毛竹 变型 的 研究 结果 〈 件 少 华 等 ，2020) 基础 上 ， 通 过 对 黄 皮 毛 竹 等 4 个 毛竹 
变异 类 型 重 测序 ， 进 行 DNA 水 平 的 变异 基因 功能 注释 ， 可 以 分 析 基 因 产 物 在 细胞 中 的 代谢 
途径 及 功能 ， 尤 其 是 对 黄酮 类 、 类 胡萝卜 素 、 硝 酸 还 原 酶 等 合成 通路 的 深入 分 析 ， 为 揭示 相 
关 代 谢 通路 有 关 基 因 提 供 重 要 理论 依据 ， 对 于 探究 毛竹 变型 秆 色 变 异 有 重要 意义 。 另 外 ,， 颜 
色 变 异 通常 是 一 个 不 稳定 的 性 状 。 例 如 , 花 毛 竹 在 不 同 的 生境 条 件 下 有 可 能 变 回 全 部 绿色 或 
者 变 成 绿 皮 花 毛竹 ， 这 表明 竹 类 植物 的 颜色 变异 在 遗传 上 不 是 一 个 稳定 的 性 状 ， 因 此 ， 从 分 
子 机制 上 探索 颜色 变异 有 其 复杂 性 ， 其 代谢 调控 还 需要 进一步 地 研究 。 
3.2 结论 


采用 第 二 代 高 通 量 重 测序 技术 ， 对 4 个 毛竹 变型 材料 进行 全 基因 组 重 测序 研究 ， 对 其 单 
EO EGdSTE 〈SNP) 、 小 片段 插入 缺失 (nDe 和 结构 变异 (SV) 进行 分 析 和 注释 ， 筛 选 可 
能 发 生 功 能 变异 的 基因 。 将 变异 基因 与 60，COG，KEGG 等 功能 数据 库 进行 比 对 ， 每 样品 都 
有 7 000 多 个 变异 基因 得 到 功能 注释 。GO 注 释 分 类 包括 细胞 组 件 、 分 子 功 能 和 生物 过 程 三 个 
基因 功能 分 类 体系 的 56 个 功能 组 ， 在 细胞 组 分 方面 ， 叶 绿 素 合成 相关 基因 有 2 431 个 ; 在 生 
物 过 程 方 面 , 参与 类 胡萝卜 素 合成 过 程 的 基因 有 75 个 , 参与 花 青 素 合成 调控 以 及 紫外 光 下 组 
织 中 花 青 素 积累 的 相关 基因 有 80 个 。COG 分 类 表明 参与 复制 、 重 组 和 修复 的 基因 数 为 369 个 ， 
言 号 转 导 机 制 的 基因 数 为 291 个 ， 转 录 的 相关 基因 222 个 。 通 过 KEGG 数 据 库 系统 地 分 析 变 异 
基因 参与 的 黄酮 类 、 类 胡 萝 小 素 等 物质 代谢 合成 途径 。 后 续 数据 的 深入 分 析 将 解析 不 同 变异 
类 型 的 基因 家 族 和 基因 功能 ， 初 步 闸 析 不 同 竹 秆 变异 毛竹 变型 的 分 子 遗 传 基础 。 
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